When need CoT for ChatGPT論文
https://scrapbox.io/files/65a7d9f1be2b8b00226a7c71.png
論文情報
タイトル:When do you need Chain-of-Thought Prompting for ChatGPT?
発行日:2023年4月
著者:Jiuhai Chen, Lichang Chen, Heng Huang, Tianyi Zhou
所属:University of Maryland
論文のポイント
https://scrapbox.io/files/65c43992351a2a0023a6d1cd.png
ChatGPTは、4/6つのタスクで「指示なし」よりもパフォーマンスが悪い。
また、ChatGPTは「指示なし」でも自発的にCoT推論ステップを生成し、高品質な回答を生み出す。
つまり、ChatGPTは「一歩ずつ考える」と明示的に指示されていない場合の方が、より良いCoT推論を自発的に行う。
https://scrapbox.io/files/65c43b24fe1706002521bd8b.png
なぜ、こんなことが起きてしまうか?
ChatGPTとGPT-3の違いは、訓練戦略。
すでにCoTでトレーニングされてチューニングされているのに、そこにさらにCoT指示が加わると、過剰適合やバイアスが起こると思われる。
まとめると、IFTフェーズ中に数学タスクで訓練する際のCoT指示の記憶が原因と考えられる
実際に、GPT-4 テクニカルレポートは、GPT-4が数学的推論の能力を向上させるためにMATHおよびGSM8Kのトレーニングセットのデータを混在させ、CoTプロンプティングを使用したとのこと https://scrapbox.io/files/65c44258b9a73600246a3a42.png
https://scrapbox.io/files/65c442b6756e5f0024db1a37.png
https://scrapbox.io/files/65c442d740ddbc0025c37530.png
論文を読んで感じたこと
この実験のChatGPTのモデルについて詳細はない。(GPT-3.5? GPT-4?)
が、おそらく、GPT-3.5-Turbo
Section 4.3では、「 GPT-4がChatGPTよりも高度な推論能力で優れていることを考えると」と書いてあることから
ChatGPTは、Insturction FineTuningとRLHFですでに、CoT(Chain of Thought)が学習されており、ChatGPTは指示が与えられていなくても、ほとんどの質問に対して自発的にCoTステップを生成し、高品質な回答を生み出す。
そして、Instruction FineTuningされた数学の推論のCoTのタイプは、プロンプトで明示的に指定するCoTよりも成績がよく、同時に同じようなCoT指示を出してしまうと、このすでに事前学習されたCoT指示が曖昧になってしまい劣化につながるだろうと推測している。
概要
CoT (Chain-of-Thought)プロンプティングは、大規模言語モデル(LLM)から複雑な多段階推論を引き出すのに効果的である。例えば、MultiArithデータセットの各入力クエリに「一歩ずつ考えよう」というCoT指示を追加するだけで、GPT-3の正確性を17.7%から78.7%に向上させることができる。しかし、より最近のInstruction Tuningを施されたLLM、例えばChatGPTにおいてCoTが依然として効果的であるかどうかは明らかではない。驚くべきことに、ChatGPTでは、算数推論などの特定のタスクに対してCoTはもはや効果的ではないが、他の推論タスクでは効果を保っている。さらに、前者のタスクでは、ChatGPTは通常、最高のパフォーマンスを達成し、指示されていなくても自発的にCoTを生成する。 したがって、ChatGPTはこれらのタスクにCoTを用いて訓練され、同様のクエリに適用されると、CoTなしでも暗黙的にそのような指示に従っていると考えられる。我々の分析は、LLMの訓練において一般的になりつつあるInstruction Tuningに導入された指示に対する過剰適合/バイアスの潜在的なリスクを反映している。さらに、事前訓練のレシピの可能な漏洩を示唆している。例えば、ChatGPTの訓練にデータセットと指示が使用されたかどうかを検証することができる。我々の実験は、ChatGPTの様々な推論タスクにおける新しいベースライン結果を報告し、LLMのプロファイリング、指示の記憶、および事前訓練データセットの漏洩に関する新しい洞察を提供する。 1. 序論
大規模言語モデル(LLM)のZero-Shot一般化は、LLMが異なるタスクの指示に従うことで大幅に向上することができる。例えば、推論タスクのための広く使用されている指示は、Chain-of-Thought(CoT)プロンプティングであり、これはGPT-3の数学推論の正確性を17.7%から78.7%に向上させることができる。これを強化するために、より最近のLLM、例えばInstructGPTは、異なる指示に関連付けられた数千のタスクでInstruction Tuningを使用して訓練されている。ChatGPTは、IFTと人間のフィードバックによる強化学習(RLHF)を使用して訓練された最先端の会話エージェントである。これらの訓練戦略の変更を考慮すると、自然な疑問が生じる。CoT(または他の指示)は、IFTとRLHFで訓練されたChatGPT(または他のLLM)で依然として効果的であるのか?OpenAIが最近になってChatGPTのAPIを公開したため、複数のタスクでChatGPTを広範囲に評価するか、ChatGPTの重み/訓練データにアクセスすることなしに、この問題を研究することは困難である。 この問題を研究するために、我々は以前の文献で広く使用されている様々な推論ベンチマークで実験を行い、GPT-3とChatGPTの3つのゼロショット学習戦略を比較する。
(1) トリガーワードのみを使用したゼロショット:
入力は質問に続いてトリガーワードのプロンプトである;
(2) 指示なしのゼロショット:
LLMには最初の段階で質問のみが与えられ、その出力は第二段階に含まれ、最終的な答えを生成するために(1)が適用される(Figure 4参照);
第一段階で質問の後にCoT指示(つまり「一歩ずつ考えよう」Kojima et al. (2022))を追加することを除いて、(2)と同じ二段階戦略(Figure 5参照)。以前のLLM、例えばGPT-3では、(3)はトレーニングデータを使用せずに多様な推論タスクのパフォーマンスを大幅に向上させる。
我々の観察
驚くべきことに、ChatGPTにおける三つのゼロショット戦略の比較は、GPT-3におけるものとは大きく異なるパターンを示す。特に、いくつかのデータセットと推論タスクでは、ChatGPTは指示が与えられていなくても、ほとんどの質問に対して自発的にCoTステップを生成し、高品質な回答を生み出すが、Zero-Shot CoTでは精度をさらに向上させることはできず、むしろ劣化させることさえある。対照的に、GPT-3では、評価された全ての推論タスクでCoT指示が常に大幅な改善をもたらす。 我々の洞察
ChatGPTがIFTを使用して訓練されたことを考えると、ChatGPTにおける観察された違いは、IFT中にCoT指示の記憶によって引き起こされると我々は推測する。これは、指示を使用せずに同じ(または類似の)質問に遭遇したとき、暗黙の指示に従うことを強制する。これは、データセットと指示の漏洩のリスクを示唆している。つまり、LLMをブラックボックスとして問い合わせるだけで、LLMの事前訓練レシピでデータセットと指示が使用されたかどうかを検証することができる可能性がある。そこで、我々はLLMに対するデータセット推論攻撃(DIA)の第一歩を踏み出す(セクション2.3)。DIAは、LLMの言語能力、強み、限界を調査し特徴付けるために使用される分析的アプローチである言語モデルプロファイリングにおいて重要な役割を果たす可能性がある。LLMの正確なプロファイルは、コストのかかる評価なしに特定のタスクのためのLLMを選択することを大幅に容易にすることができる。さらに、我々の実証的分析は初めて、異なるプロンプティング戦略を使用した際のChatGPTのゼロショット学習能力に関する広範囲かつ正確な評価を提供し、将来の作業のための新しいベースライン結果を設定し、推論タスクにおけるChatGPTの理解を向上させる。主なポイントは以下の通りに要約できる:
1. ChatGPTは、指示がなくても算数推論タスクの中間ステップを自発的に生成する(Figure 1参照)。
https://scrapbox.io/files/65a7aa7de7dce70022c0a9fb.png
2. GPT-3や以前のLLMとは異なり、CoT指示は算数推論タスクにおいてChatGPTにとって役に立たないか、さらには有害である。
3. 算数以外の推論タスクでは、ChatGPTは上記のパターンを示さず、GPT-3と同様の振る舞いをする。
4. ChatGPTはIFTで算数推論とCoT指示を使用しており、指示とデータを記憶している可能性がある。
5. 我々の観察は、事前訓練レシピの漏洩、IFTの指示に対する過剰適合、およびデータセット推論攻撃を示唆している。
2 関連研究
2.1 ChatGPT
ChatGPTは、最先端の会話AIとして、AI generate-context (AIGC)1の画期的な進歩を遂げたことで広く認識されており、新しいAI研究の時代が来ていることを示唆している(Jiao et al., 2023; van Dis et al., 2023)。ChatGPTは、例えばSATやGRE2などの標準化テストにおいて、私たち人間よりも良いスコアを得るなど、卓越した認知能力を示すだけでなく、人間レベルのコンテキストライティングスキルも持っている:LLMに対する透かし(watermarks)があっても、人間が作成したコンテキストと確実に区別することは難しい。
2.2 Chain-of-Thought Prompting
Chain-of-Thoughtプロンプティング(CoT)は、ゼロショットおよび少数ショット推論のためにLLMに適用される二段階の問い合わせ戦略である。CoTプロンプト(指示またはいくつかのCoT例)は、LLMから各クエリの中間推論ステップのシーケンスを引き出すことができる。Wei et al. (2022)に基づいて、Least to Mostプロンプティング、Self-Consistency、ブートストラッピング(Zelikman et al., 2022)、より良いデモの選択(Chen et al., 2023; Li et al., 2022)など、さまざまな戦略を通じてCoTの標準を強化する数多くの調査が行われている。これらの進歩は、複雑なタスクに対処するCoTプロンプティングのパフォーマンスを大幅に向上させた。本論文では、Zero-Shot CoTに焦点を当て、IFTを通じてCoT指示で事前訓練された可能性があるChatGPTにおいて、それが依然として効果的であるかどうかを検討する。 2.3 メンバーシップ/データセット推論攻撃
メンバーシップ推論(MI)攻撃は、画像分類モデル(Shokri et al., 2017; Ye et al., 2022)に対して研究されてきた。これは、モデルのトレーニングデータセットにデータレコードが含まれていたかどうかを、モデルへのブラックボックスアクセスのみで判断することを目的としている。MIには2つの主なカテゴリーがある:信頼度ベクトル(Hayes et al., 2019; Salem et al., 2019)、攻撃者がモデルの予測信頼スコアにアクセスできる場合、およびラベルのみ(Choquette-Choo et al., 2021)。しかし、LLMに対する推論攻撃は、(1) LLMのトレーニングコーパスが
はるかに大きいため、例えばGPT-3の場合は4990億トークン(ImageNet(Deng et al., 2009)の1400万画像に比べて)であり、(2) LLMの出力は組合せ的で高度に構造化されているのに対し、テキスト/画像分類の出力空間は有限ではるかに単純であるため、より困難である。したがって、LLMの単一データレコードのMIは針の中の針を見つけるようなものであり、代わりにトレーニングデータセットの漏洩を調査する。 データセット推論
大規模なトレーニングコーパスを介して事前訓練またはIFTによって訓練されたLM M、つまり、C = {D1, D2, . . . , DN } ∪ {I1, I2, . . . , IN }、(1) では、DiとIiはそれぞれデータセットと指示を表す。データセットDiが与えられた場合、データセット推論はDi ∈ CまたはIi ∈ Cであるかを検証することを目的としている。
3 ChatGPTにおけるゼロショット推論
3.1 プロンプティング戦略
最近のLLMは、プロンプティングを介してモデルパラメータを一切トレーニングせずに、ゼロショット学習を行う大きな可能性を示している(Wang et al., 2019; Xian et al., 2017)。我々は、様々な推論タスクにおいて、ChatGPTとGPT-3に適用された3つのゼロショット推論戦略を比較する。
(1) トリガーワードを使用したゼロショット
質問 Q の後にトリガーワード T を追加して LLM Mに問い合わせます。つまり、A = M(【Q; T】)。Kojima et al. (2022) のトリガーワードプロンプトのリストに従い、例えば算数推論タスクの場合は「答え(アラビア数字で)は」とします。
(2) 指示なしのゼロショット
最初の問い合わせは元の質問のみ(指示なし)で構成され、C = M(【Q】) であり、その出力 C が第二の問い合わせの入力に含まれ、トリガーワードで最終的な答えを生成するために追加されます。つまり、A = M(【C; Q; T】)(Figure 4参照)
https://scrapbox.io/files/65a7ac19a584f50022ebaa00.png
上記の戦略と同じように LLM に二回問い合わせますが、最初の問い合わせの元の質問に CoT 指示 P(つまり「一歩ずつ考えよう」)を追加します。したがって、最初の問い合わせは C = M(【Q; P】) であり、2回目は A = M(【C; Q; T】)(Figure 5参照)
https://scrapbox.io/files/65a7ac22c40b710024b7839c.png
3.2 タスクとデータセット
我々は、様々な推論ベンチマークで一連の実験を行います。
全体的な統計は表1に記載されています。
https://scrapbox.io/files/65a7acb085d3ea0022033bee.png
4 発見と分析
4.1 ChatGPT 対 GPT-3:異なるプロンプティング戦略とタスク
セクション3.1で紹介されたゼロショット推論の3つのプロンプティング戦略を、GPT-3とChatGPTに適用した結果を比較します。結果は表2-3に報告されています。興味深いことに、2つのLLMで異なる観察結果があり、異なる推論タスクで異なるパターンを示しています。
https://scrapbox.io/files/65a7ae5ed2f9890023a045a2.png
表2-3のほぼすべての推論タスク(CSQAを除く)で、CoT指示プロンプトは一貫してGPT-3のゼロショット推論精度を改善します。これは、Kojima et al. (2022) の以前の研究の観察と一致しています。 しかし、ChatGPTに適用された場合、6つのタスクのうち4つで「指示なし」のプロンプティングよりもパフォーマンスが悪く、1つのタスク(つまり、AQUA-RAT)でわずか+0.4%の改善しかもたらしません。驚くべきことに、ChatGPTは最初のプロンプティングで「指示なし」でもCoT推論ステップを生成します(Figure 1参照)。言い換えれば、ChatGPTは「一歩ずつ考える」と明示的に指示されていない場合の方が、より良いCoT推論を自発的に行います。これはGPT-3とは対照的です。
表3の非算数推論タスクのほとんど(CSQAを除く)で、Figure 6に示されているように、CoT指示はChatGPTのゼロショット推論精度を6つのタスクのうち5つで大幅に向上させます。これはGPT-3および他の以前のLLMと一致しています。
https://scrapbox.io/files/65a7ae93e7dce70022c0dd19.png
https://scrapbox.io/files/65a7d52c24e23e00240a2019.png
2つの常識推論タスクでは、トリガーワードのみを使用した単一ステップのプロンプティングがChatGPTで最高のパフォーマンスを達成します。また、CSQAではGPT-3でも最高のパフォーマンスを発揮します。
したがって、GPT-3でのCoTによる一貫した改善とは異なり、CoT指示がChatGPTを改善できるかどうかはデータセットによって異なり、少なくともデータセットのスタイル(例えば、算数かどうか)に依存します。これにより、基本的な重要な質問が生じます:いつChatGPTにCoTプロンプティングが必要なのか、そしてなぜか?
4.2 指示の記憶
セクション4.1で示されたChatGPTと以前のLLMの主な違いは、ChatGPTはCoT指示(または他の指示)が必要なく、自発的に段階的な推論を行い、算数推論のための高品質な回答を生み出すことができる点です。さらに、CoT指示はChatGPTの算数推論の精度を低下させる可能性があります。常識推論タスクにおいて、最初のクエリにCoT指示を追加しても、ChatGPTの精度は顕著に改善されません(StrategyQAでは)し、劣化することさえあります(CSQAでは)。実際、最初のクエリ全体を削除し、トリガーワードプロンプティングのみを適用すると、これら2つのタスクにおいてChatGPTの最高精度が得られます。しかし、このような違いは他の推論タスクには現れず、ChatGPTはGPT-3やPaLM(Kojima et al., 2022)など他のLLMと同様に、CoT指示を与えられた場合には正確な中間推論ステップを生成する傾向があります。
したがって、特定のタイプのタスクにおいて、ChatGPTは何も指示されていないにもかかわらず、暗黙のCoT(思考の連鎖)指示に従う傾向があります。さらに、このような暗黙の指示に従うことは、明示的なCoT指示をプロンプティングするよりも優れていることがあり、これは暗黙のものに対する気晴らしになる可能性があります。しかし、この振る舞いはGPT-3では起こらず、この振る舞いが訓練戦略の結果であると我々は考えています。より具体的には、ChatGPTとGPT-3の主な違いは、前者が特定の(タスク、指示)ペアで訓練されたことです。特に、ChatGPTのIFT(Instruction Tuning)は、CoT指示を用いて訓練された算数推論タスクやCSQA(常識推論)をほとんど含む可能性があります。IFT中に、ChatGPTがCoT指示を記憶し、これらのタイプの推論問題から記憶されたCoT指示への固有のマッピングを構築することは合理的です。したがって、同じタスク/データセットに適用された場合でも、明示的な指示がなくても、ChatGPTはタスク/データセットに関連付けられた記憶された指示に従います。 ChatGPTの指示記憶の可能性は、IFTによってカバーされた指示に対する過剰適合またはバイアスのリスクを示唆しています。IFTはLLMをより専門的なタスクソルバーへと訓練する上で効果的であることが示されていますが、IFTによってカバーされる指示とタスクは有限で、おそらく限定されています。したがって、IFTで訓練されたLLMが新しい指示やタスクにどのように一般化するかは不明です。
さらに、汎用LLMは同じ質問に対して異なる指示に従うことが期待されています。しかし、我々の観察に基づくと、ChatGPTはIFT中に特定の指示で割り当てられたタスクと関連付けられている場合、他の指示に従うことが困難である可能性があります。
4.3 データセット推論攻撃による事前訓練レシピの漏洩
上記の指示記憶の分析は自然に事前訓練レシピの漏洩のリスクを示唆し、セクション2.3で紹介されたデータセット推論攻撃を可能にします。ChatGPTおよびより最近のAPI LLMの事前訓練レシピ、つまりIFTでのタスク/データセットとそれに関連付けられた指示は公開されていませんが、セクション3.1のプロンプティング戦略の違いを見ることで、IFTで(タスク、指示)ペアが使用されたかどうかを確認することができるかもしれません。
例えば、我々の観察に基づいて、ChatGPTはIFT中に算数推論タスクとCSQAでCoT指示を使用して訓練されていると推測するのは合理的ですが、他の推論タスクではそうではありません。さらに、「トリガーワード」と「CoT指示」との違いを表2-3で比較すると、CoTプロンプティングはいくつかの算数推論データセット(例えば、MultiArith、AQUA-RAT、GSM8K)、2つの記号的推論データセット、および他の2つの推論データセットにのみ大幅な改善をもたらします。これはデータセットの漏洩を示唆しており、CoTプロンプティングは訓練データでChatGPTをさらに改善することができない可能性があります。
特に、GPT-4 テクニカルレポートは、GPT-4が数学的推論の能力を向上させるためにMATHおよびGSM8Kのトレーニングセットのデータを混在させ、CoTプロンプティングを使用したことを確認しています。GPT-4がChatGPTよりも高度な推論能力で優れていることを考えると、ChatGPTも事前訓練段階でMATHデータセットの一定量に対して訓練された可能性が高いです。ただし、これらの推測を完全に確認するためには、将来的にさらに広範な分析と厳格なテストが必要です。 5 結論
我々は、異なるプロンプティング戦略を使用してChatGPTの推論能力を調査し、GPT-3など以前のLLMと比較してChatGPTの異なる振る舞いを観察しました。さらに、そのような違いはタスクとプロンプトタイプに大きく依存していることがわかりました。具体的には、CoT指示に従うことでほぼ常にゼロショット推論の精度が向上するGPT-3とは異なり、ChatGPTはプロンプト内で特定の指示がなくても最も優れたパフォーマンスを示し、驚くべきことに、ほとんどの算数および常識推論タスクで入力質問に対して自発的にCoT推論ステップを生成します。一方で、ChatGPTは他の推論タスクやベンチマークにおいてGPT-3や他のLLMと一貫したパターンを示し、これらのタスクでは通常CoTプロンプティングが大幅な改善をもたらします。
ChatGPTとGPT-3や以前のLLMの特徴的な違いがIFT、つまり(タスク、指示)ペアのセットに対するファインチューニングであることを考慮すると、我々は、特定のタスクで観察されたChatGPTの不均等性と自発的なCoT行動は、IFTフェーズ中にこれらのタスクで訓練する際のCoT指示の記憶によるものであると推測します。さらに、将来的な検証を通じて、我々の観察は現在のAPI LLMに対する事前訓練(IFT)レシピの漏洩リスクとデータセット推論攻撃の脆弱性を示唆しています。さらに、我々の分析は、将来的に対処する必要があるいくつかの基本的な課題を浮き彫りにしています。例えば、IFTを通じて得られたLLMの指示に従う能力が新しいタスクや指示にどのように一般化できるか、異なるタイプのタスクに対してプロンプティング戦略をどのように選択するかなどです。